iT邦幫忙

2025 iThome 鐵人賽

DAY 17
0

▋前言


在 Day 16 我們談到資料探勘 (EDA) 的一般流程。今天,我們要把這些步驟實際應用在 AMI Meeting Corpus —— 一個包含多講者會議錄音與逐字稿的語料庫。這套資料特別適合檢測我們的「語者分離與識別」模組,因為它的挑戰性很高。

▋內容


https://ithelp.ithome.com.tw/upload/images/20250925/20169058gwUqDByw4R.jpg
AMI Meeting Corpus 的特色

  1. 多人會議場景:每段錄音都有 3–5 位講者,常常互相打斷。

  2. 逐字稿與時間戳:官方提供完整逐字稿與時間標註。

  3. 聲音重疊 (overlap speech) 比例高,對於 speaker diarization 是極大挑戰。

  4. 語速與口音差異大:涵蓋不同母語者的英文,模擬線上教學中常見的多樣性。

EDA 探勘重點

  1. 錄音長度統計

    • 大部分會議長度在 20–60 分鐘。

    • 確認是否需要分割成較短的片段再送入 STT。

  2. 語者分布

    • 平均每場會議約 4 人。

    • 可分析每位講者的發言比例,例如「某人佔比 40%,其他人 20%」。

  3. 重疊語音比例

    • 約 10–15% 的時間存在多人同時說話。

    • 這部分會讓 NeMo 的 diarization pipeline 難以正確切分。

  4. 逐字稿品質

    • 人工轉錄的逐字稿相對可靠,但有些標註可能略為不精確(例如 time alignment 偏移)。

結論
AMI 適合用來「壓力測試」系統,驗證我們的 speaker diarization 模組在困難場景下的表現。

▋下回預告


下一篇將探勘 Mozilla Common Voice,這是一個開源眾包資料集,幫助我們檢視「多口音與開放場景」的挑戰。

▋參考資料


AMI Corpus
Speaker Diarization with AMI dataset (Pyannote Notebook)
圖片源自AMI Corpus官網


上一篇
Day 16 資料探勘的流程與重要性
下一篇
Day 18 Switchboard 語料庫介紹與特色
系列文
AI語音辨識系統:結合聲紋分析與情緒識別23
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言